Day4:使用dplyr轉換資料-Manipulate Cases (1) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 4

1

AI/ ML & Data

資料科學的小筆記系列第 4 篇

Day4:使用dplyr轉換資料-Manipulate Cases (1)

16th鐵人賽

團隊iT 貓貓教

2024-08-15 22:55:29

418 瀏覽

分享至

正文

今天要來紀錄的是dplyr的操縱函式，先針對提取案例(Extract Cases)進行練習，以下函式會回傳一組資料列作為新的資料表：

filter(.data, ..., .preserve = FALSE)：取出符合邏輯條件的資料列。
可以使用的邏輯及布林運算子：
```
1. ==
2. <
3. <=
4. is.na()
5. %in%
6. |
7. xor()
8. !=
9. >
10. >=
11. !is.na()
12. !
13. &
```

篩選mtcars資料集中mpg大於20的資料列

mtcars |> filter(mpg > 20)

distinct(.data, ..., .keep_all = FALSE)：去除有重複值的資料列。

取出mtcars資料集的gear不重複資料列

mtcars |> distinct(gear)

slice(.data, ...,, .preserve = FALSE)：取出特定位置的資料列。

取出mtcars資料集的第10列到第15列

mtcars |> slice(10:15)

slice_sample(.data, ..., n, prop, weight_by = NULL, replace = FALSE): 隨機取出資料列。使用n設定要取出的資料列數量，或是使用prop以資料集比例的方式取出的資料列數量。

隨機取出mtcars資料表5個資料列

mtcars |> slice_sample(n = 5, replace = TRUE)

隨機取出mtcars資料表10％比例數量的資料列

mtcars |> slice_sample(prop = 0.1, replace = TRUE)

slice_min(.data, order_by, ..., n, prop, with_ties = TRUE): 取出有最小值的資料列。同理，slice_max()為取出有最大值的資料列。可以n個資料列(最小的前n名)，或用prop取出比例的資料量，與slice_sample()的參數相同意義。

取mtcars資料集mpg前25％數量最小的資料列

mtcars |> slice_min(mpg, prop = 0.25)

slice_head(.data, ..., n, prop)：取出前n列的資料列，或使用prop以比例取出。同理，slice_tail()為取出後n列的資料列。

取mtcars資料集前5列的資料列

mtcars |> slice_head(n = 5)

今天的小筆記就先到這邊，大家明天見～～

參考資料：Data transformation with dplyr :: Cheatsheet

Day3: 使用dplyr轉換資料-Group Cases

Day5:使用dplyr轉換資料-Manipulate Cases (2)

系列文

資料科學的小筆記共 29 篇

目錄

RSS系列文訂閱系列文

4 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙